基本流程
1.連線到特定網址,抓取資料
2.解析資料,取得實際想要的部分
Cookie
什麼是cookie?
Cookie 是一個小型文字檔案,儲存在使用者瀏覽器中。當您瀏覽網站時,設定於瀏覽器內的 Cookies,會讓瀏覽器記下一些特定的資訊以便未來能夠更加方便被使用。Ex:將您在網站上所打的文字或是一些選擇記錄下來。當下次再訪問同一個網站,伺服器會先看看有沒有上次留下的 Cookie 資料,有的話,會依據裡面的內容來判斷使用者,送出特定的網頁內容給您。
Cookie 是設定於使用者電腦的瀏覽器內,所以當您使用其他電腦連結相同網站時,Cookie 會重新紀錄。所以不用擔心您的 Cookie 資料會傳送到其他電腦中喔。
Cookie的用途
Cookie 是一種讓網站瀏覽更流暢方便的機制, 網站利用 Cookie 最廣泛的用途有以下幾種:
1.網路購物
2.自動登入
3.廣告投放
與伺服器的互動
連線時,放在request headers送出
追蹤連結
HTML超連結
在我們的網頁,HTML的原始碼中經常會包含網頁的超連結,使用者點選可以直接連結到該網頁
我們需要能夠抓取超連結的網頁
連續抓取頁面實務
解析頁面的超連結,並結合程式邏輯完成
下一篇會使用程式碼範例來讓大家更了解操作過程
參考來源:https://www.waca.net/support/id/445
https://www.youtube.com/watch?v=BEA7F9ExiPY&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=20